今天要介紹是行人屬性識別(Pedestrian Attribute Recognition)
Multi-attribute Learning for Pedestrian Attribute Recognition in Surveillance Scenarios
這篇算是第一個將深度學習結合PAR的論文,算是蠻簡單的,
本文提出兩種模型:DeepSAR和DeepMAR
DeepSAR中,每個屬性被當做一個二元問題,訓練多個子網絡來識別每個屬性。
CNN網路是共享的,輸入是一個圖片和它的一個屬性,輸出是圖片有該屬性的機率。
使用多個分類softmax loss組成最終loss。
DeepMAR中,把PAR當做了多標籤分類問題。
因為屬性間可能是有相關的,例如(長裙,長髮,女性)
輸入是圖片和它的屬性向量,loss函數使用sigmoid cross entropy loss同時計算所有屬性。
此外,為了解決屬性類別資料不平衡的問題,對loss做進一步改進:
w是每個屬性的權重,和屬性在train data的數量成反比,占比越多的屬性w權重越小。
使用PETA dataset進行訓練,包含19000張行人圖片,有61個二元屬性和4個多類屬性。
平均accuary可以達到80以上,由於考慮了屬性間關係,DeepMAR比DeepSAR更高。
此外,由於有處理資料不平衡的問題,可以看到在資料少量的屬性上也有不錯的表現。